查看原文
其他

统计计量 | 上帝之手:如何理解断点回归?

数据Seminar 2022-12-31

The following article is from 功夫计量经济学 Author 江河JH

本文转载自公众号功夫计量经济学

让我们考虑一个简单的例子:上重点大学是否能获得更高的收入?对于一个倾向于进行经验研究的人而言,自然而然的想法就是使用OLS比较上重点大学和没上重点大学的人在收入上的差异。但是,「这种简单比较存在严重的选择性偏差,因为在这里比较的两类人在自身特质方面可能存在很大差异,上重点大学的孩子可能本身就很出色(更聪明、有毅力、能力强...)」,因而更有可能获得更高的收入。
那么究竟怎么样才能获得上重点大学对收入的因果效应吗?如果有一台时光穿梭机就好了,那样我们就可以穿越到过去,重新做一次选择,从而比较上重点大学和不上重点大学的收入差异。换言之,「我们就是要找到上重点大学的反事实——如果上重点大学的人没有上重点大学会怎么样」。随机实验是因果推断的黄金律,但是在这一问题上进行随机实验是违反道德与法律的。
高考制度为我们提供了一种构建反事实的新思路和新方法——断点回归设计(RDD),「断点回归可以被看作是一种局部(准)随机实验,仿佛在录取分数线这一断点附近对考生进行了随机分组,也就是说个体是否上重点大学仿佛是由“上帝之手”所决定的」

清晰断点回归(Sharp RDD)

假设今年的重点大学录取分数线为500分,所有大于等于500分的考生都能够进入重点大学,而所有低于500分的考生则无法被录取。此时,500分就是高考“一刀切”的门槛,个体得到处理(上重点大学)的概率在500分处发生了一个从0到1的跳跃。
500分的考生是很幸运的,而499分的考生就很不幸了,仅仅一分之差,这两类人在能力、智商、情商等方面(包括可观测因素和不可观测因素)可能并没有什么差别,只是运气使然罢了。因此,「这就仿佛是在断点(500分)附近对考生进行了随机分组,我们就可以使用499分的那些没上重点大学的考生作为500分的那些上重点大学的考生的反事实参照组」,从而在一个局部区域内估计出重点大学对收入的因果效应。如果500分(上重点大学)和499分(没上重点大学)这两组人群的收入存在差异,那么这种差异就应当是重点大学带来的。这一思想可以用下面的数学公式来表示:
但是,上面这一公式太过抽象,我们可以通过局部线性回归的方法估计出重点大学对收入的局部平均处理效应(LATE):
其中,为驱动变量,在本例中就是考生的分数;为处理变量,表示样本是否被处理,也就是是否上重点大学,它完全依赖于驱动变量。的系数就是在处的局部平均处理效应。

模糊断点回归(Fuzzy RDD)

但其实,上重点大学这个例子用清晰断点回归有点不太合适。考生能否上重点大学受多方面因素的影响,并不是过了重点大学分数线就能上重点大学,没过重点大学分数线就不能上重点大学,我们的大学招生中还存在着农村专项计划、自主招生、保送、特长加分、补录等情况的存在,并且志愿填报、家庭收入(付不起学费)等多方面都可能会影响考生是否能上重点大学。此时,500分还是高考“一刀切”的门槛,但是「个体得到处理(上重点大学)的概率仅会在500分处发生一个从a到b的跳跃(0<a<b<1),而不像之前那样是从0到1的跳跃」。也就是说,当x>500,个体也不一定得到处理。这种情形是更为常见的断点回归情形,也就是大家熟知的模糊断点回归。
在模糊断点回归中,断点附近处理变量D不完全由驱动变量x决定,换言之,个体是否被处理不再是随机的。此时,如果我们在模型中遗漏了那些会影响到处理变量D的因素,那就会导致处理变量D与扰动项相关,OLS估计量是不一致的。陈强老师举了一个很好的例子,虽然分数过线但是因志愿填报失误而落榜的考生,多有较深实力,而这种不可观测的实力既会影响处理变量D,也会影响到结果变量Y。
为了解决内生性问题,一种思路就是使用工具变量法,将驱动变量x是否超过断点值定义为一个分组虚拟变量Z,作为处理变量D的工具变量,进行2SLS估计:一方面,分组变量Z显然与处理变量D相关,满足工具变量的相关性;另一方面,分组变量Z在断点处相当于局部随机实验,故只通过处理变量D影响结果变量Y,与扰动项不相关,满足工具变量的外生性。
因此,我们经常说模糊断点回归实际上就是一种特殊的工具变量法。





星标⭐我们不迷路!
想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


数据资源 | 干货满满!利用Python获取中国行政区边界经纬度坐标

统计计量 |  因果推断理论的商业应用遐想

统计计量 | 计量经济学前沿理论与方法

统计计量 | 如何确定因果关系?四种理论分析模型

数据可视化 | Python数据可视化:平凡的世界

数据资源 | 哪里可供经济学论文复制的数据和代码?

新世野 | 不可错过的最新数据可视化案例,建议先码后看!!!






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 青酱


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存